回归模型不仅是数据分析和预测的强大工具,也是实现自动化监控和异常检测的有效手段。在复杂系统管理中,结合适当的阈值设置和报警机制,可以大大提高问题发现的及时性和准确性,进而保障系统的稳定运行。本文介绍回归分析函数的基本语法和示例。
背景信息
公式:y = a1 * x1 + a2 * x2 + b + noise
参数 | 说明 |
| 日志服务采集的一列数据。 |
| 日志服务采集的一列数据。 |
| 一个随机变量。 |
| 根据公式计算的结果。 |
根据用户提供的x1
、x2
、y
和权重数据,找出公式中的a1
、a2
和b
(三个系数),然后计算出结果。
本文介绍回归分析函数示例的日志包含六个字段索引。更多信息,请参见创建索引。
日志样例如下:
{"group_id":"A","observation_id":"S001","time_offset":"0","x1":"1","x2":"5","y":"23.91700530543459"} {"group_id":"A","observation_id":"S002","time_offset":"-1","x1":"2","x2":"2","y":"6.931858878794941"} {"group_id":"A","observation_id":"S003","time_offset":"-2","x1":"3","x2":"8","y":"16.17603801639615"} {"group_id":"A","observation_id":"S004","time_offset":"-3","x1":"4","x2":"6","y":"24.97127625789946"} {"group_id":"A","observation_id":"S005","time_offset":"-4","x1":"5","x2":"2","y":"11.933292736756384"} {"group_id":"A","observation_id":"S006","time_offset":"-5","x1":"6","x2":"8","y":"21.034262717019995"} {"group_id":"A","observation_id":"S007","time_offset":"-6","x1":"7","x2":"1","y":"25.966770392099868"} {"group_id":"A","observation_id":"S008","time_offset":"-7","x1":"8","x2":"7","y":"16.93019469603219"} {"group_id":"A","observation_id":"S009","time_offset":"-8","x1":"9","x2":"2","y":"19.967258015889847"} {"group_id":"A","observation_id":"S010","time_offset":"-9","x1":"10","x2":"3","y":"27.0277513207651"}
回归分析函数列表
函数名称 | 语法 | 说明 | 返回值类型 |
| 该函数为标量函数,通过array_agg实现聚合功能,输入为回归模型的样本及可选的样本权重,输出为识别出的回归模型,模型结果采用JSON格式返回。 | varchar | |
linear_model_predict(varchar model_in_json, array(double) x_sample) | 通过识别出的模型及输入变量样本进行预测。 | double | |
recent_regression(double y, array(double) x_array, double cur_sample_time_period, double cur_batch_begin_period, double cur_batch_end_period, double time_unit, double damping_weight_per_time_unit) | 基于最新收集的数据,在线更新模型参数与状态变量。模型采用样本年龄作为权重调整依据,使样本的重要性随年龄增长呈指数衰减。 | varchar | |
merge_recent_regression(varchar model_1_json, varchar model_2_json) | 将前后两个阶段识别出的模型参数和状态变量进行合并,其结果与将两批数据合并后重新识别出的模型参数相同。 | varchar | |
recent_regression_predict(varchar model_json, array(double) x_sample) | 使用自适应回归模型进行预测。 | double |
带样本权重的回归模型
支持为回归模型指定样本权重,支持与时间或目标变量相关的权重设置。通过随样本年龄减小的权重,模型更关注最新数据,适应系统变化;使用目标变量绝对值倒数作为权重,则使回归模型最小化相对误差。
linear_model函数
该函数为标量函数,通过array_agg函数实现聚合,输入为回归模型的样本及可选的样本权重,输出为JSON格式的回归模型。
varchar linear_model(array(array(double)) x_samples, array(double) y_samples)
或
varchar linear_model(array(array(double)) x_samples, array(double) y_samples, array(double) weights)
参数 | 说明 |
| 由多个输入变量样本组成的数据矩阵结构,其中每一行代表一次针对这些输入变量的观测。 |
| 由输出变量的样本构成的向量。 |
| 可选参数,如果未指定则赋予相同的权重。 |
使用示例
查询和分析语句
* | select group_id, linear_model( array_agg(array[x1, x2]), array_agg(y) ) as model from log group by group_id
返回结果
返回值中
coefficients
字段表示的是通过数据识别出来的线性回归的系数。预测时此函数作为linear_model_predict函数的入参。
group_id
model
A
{ "coefficients": [ 0.8350068912618618, -0.741283054726383, 19.17405856472653 ], "isBuilt": true, "isBuildSuccessful": true, "sampleCount": 10, "xCount": 2, "wSum": 10.0, "ySumSquare": 3930.0, "ySum": 188.0, "xXSumProducts": [ [ 385.0, 367.0 ], [ 367.0, 475.0 ] ], "xYSumProducts": [ 1104.0, 1239.0 ], "xSums": [ 55.0, 67.0 ], "xMeans": [ 5.5, 6.7 ], "xStdDevs": [ 2.8722813232690143, 1.6155494421403511 ], "xVariances": [ 8.25, 2.6099999999999994 ], "yMean": 18.8, "yStdDev": 6.289674077406551, "yVariance": 39.559999999999945, "xCorrelations": [ [ 1.0, -0.03232540919176149 ], [ -0.03232540919176149, 1.0 ] ], "xYCorrelations": [ 0.3874743195572169, -0.202730375711539 ], "regularized": true, "regularWeight": 1.0E-6 }
linear_model_predict函数
通过识别出的模型及输入变量样本进行预测。
double linear_model_predict(varchar model_in_json, array(double) x_sample)
参数 | 说明 |
| 用linear_model函数识别出来的模型结果。 |
| 新的输入变量。 |
使用示例
查询和分析语句
* | with group_models as ( select group_id, linear_model( array_agg(array[x1, x2]), array_agg(y) ) as model from log group by group_id ) select d.group_id, d.y, linear_model_predict(m.model, array[x1, x2]) as predicted_y from group_models as m join log as d on m.group_id = d.group_id
返回结果
predicted_y
是由输入变量计算出来的预测值。group_id
observation_id
y
predicted_y
A
S001
23.91700530543459
15.68867910570816
A
S002
6.931858878794941
15.352330987812993
...
...
...
在线自适应回归算法
一种在线增量算法,该算法在接收新数据时,仅需使用新数据对模型进行增量式更新,相较于批量算法处理大量数据的需求,具有高效计算和低成本存储的优势。此外,该算法适用于持续性分析(Continuous Profiling),因每次处理后即可丢弃样本数据,故展现出更高的实用性和便捷性。
在线自适应回归算法中的自适应指的是在线算法在增量计算统计特征和模型的时候,能够自动地对旧的历史样本对统计特征的影响按照指数衰退,让最近的样本保持较高的权重,跟上系统环境的变化。
recent_regression函数
根据最近采集到的一批数据,在线更新模型参数和状态变量。模型会根据样本的年龄让样本的重要性进行指数衰退。
varchar recent_regression(double y, array(double) x_array, double sample_time, double cur_batch_begin_period, double cur_batch_end_period, double time_unit, double unit_damping_weight)
参数 | 说明 |
| 预测目标变量的列数据,因变量的样本。 |
| 由自变量(输入变量)组成的样本数组。 |
| 该样本行对应的数据时间点是什么,时间需要转换成为数字。 |
| 当前这一批用于训练模型的数据的时间段的起始时刻。 |
| 当前这一批用于训练模型的数据的时间段的终止时刻,数据的时间段是 |
| 单位时间间隔。时间尺度和 |
| 指数衰退基数。样本权重随时间变化的关系,即每隔一个特定的时间单位(time_unit),样本的权重会减少一个固定值(unit_damping_weight)。 让样本权重按照一定的半衰期以指数衰减,例如,最新时刻的数据的权重为1,一天前的数据的权重降为1/2,两天前的数据的权重降到1/4,三天前的权重降到1/8,以此类推。 当前变量使用公式计算: unit_damping_weight = 2 ^ -(样本时间间隔/半衰期) |
使用示例
查询和分析语句
* | select group_id, recent_regression( y, array[x1, x2, 1.0], -- 输出输入变量样本 time_offset, -- 样本的时间点 -4, -- 当前批次数据样本的起始时间 0, -- 当前批次数据样本的终止时间 1, -- 单位时间间隔 0.999 -- 指数衰退基数 ) as reg_model from log where time_offset >= -4 and time_offset <= 0 group by group_id
返回结果
返回值中
coefficients
字段表示的是通过数据识别出来的线性回归的系数。预测时此函数作为recent_regression_predict函数的入参。
group_id
reg_model
A
{ "sampleCount": 5, "xCount": 3, "timeUnit": 1.0, "beginTimePeriod": -4.0, "endTimePeriod": 0.0, "unitDampingWeight": 0.999, "wSum": 4.990009995001, "ySumSquare": 1644.6974283836598, "ySum": 83.76770287757991, "xXSumSquares": [ [ 54.830206884025, 70.82220388003, 14.960044976005001 ], [ 70.82220388003, 173.70327985603598, 25.955043976006 ], [ 14.960044976005001, 25.955043976006, 4.990009995001 ] ], "xYSumProducts": [ 245.21187055562675, 402.5070758759011, 83.76770287757991 ], "xSums": [ 14.960044976005001, 25.955043976006, 4.990009995001 ], "xMeans": [ 2.997999000200801, 5.201401199999158, 1.0 ], "xStdDevs": [ 1.4142126422148122, 2.7848935986573244, 0.0 ], "xVariances": [ 1.9999973974002003, 7.755632355842543, 0.0 ], "yMean": 16.78708118049834, "yStdDev": 6.913170639821401, "yVariance": 47.79192829528864, "xCorrelations": [ [ 1.0, -0.35572473794248516, 0.0 ], [ -0.35572473794248516, 1.0, 0.0 ], [ 0.0, 0.0, 1.0 ] ], "xYCorrelations": [ -0.12142097167729436, -0.34560624507434407, 0.0 ], "coefficients": [ -1.3675797278475395, -1.104969989478544, 0.0, 26.634476066516903 ], "isBuilt": true, "isBuildSuccessful": true }
merge_recent_regression函数
将前后两个阶段识别出的模型参数和状态变量进行合并,其结果与将两批数据合并后重新识别出的模型参数相同。
varchar merge_recent_regression(varchar model_1_json, varchar model_2_json)
参数 | 说明 |
| recent_regression函数的返回值。 |
| recent_regression函数的返回值。 |
使用示例
查询和分析语句
* | with model1 as ( select group_id, recent_regression( y, array[x1, x2, 1.0], -- 输出输入变量样本 time_offset, -- 样本的时间点 -4, -- 当前批次数据样本的起始时间 0, -- 当前批次数据样本的终止时间 1, -- 单位时间间隔 0.999 -- 指数衰退基数 ) as reg_model from log where time_offset >= -4 and time_offset <= 0 group by group_id ), model2 as ( select group_id, recent_regression(y, array[x1, x2, 1.0], time_offset, -9, -5, 1, 0.999) as reg_model from log where time_offset >= -9 and time_offset <= -5 group by group_id ) select m1.group_id, merge_recent_regression(m1.reg_model, m2.reg_model) as reg_model from model1 as m1 join model2 as m2 on m1.group_id = m2.group_id
返回结果
返回值中
coefficients
字段表示的是通过数据识别出来的线性回归的系数。预测时此函数作为recent_regression_predict函数的入参。
group_id
reg_model
A
{ "sampleCount": 10, "xCount": 3, "timeUnit": 1.0, "beginTimePeriod": -9.0, "endTimePeriod": 0.0, "unitDampingWeight": 0.999, "wSum": 9.955119790251791, "ySumSquare": 4159.2626495224, "ySum": 193.9139516502596, "xXSumSquares": [ [ 382.3684973894312, 268.46629177582946, 54.67098815430803 ], [ 268.46629177582946, 358.44803436913094, 51.78255011892536 ], [ 54.67098815430803, 51.78255011892536, 9.955119790251791 ] ], "xYSumProducts": [ 1132.090921413269, 919.4071924317548, 193.9139516502596 ], "xSums": [ 54.67098815430803, 51.78255011892536, 9.955119790251791 ], "xMeans": [ 5.4917458861562585, 5.201599901352432, 1.0 ], "xStdDevs": [ 2.8722740635191735, 2.991614845817865, 0.0 ], "xVariances": [ 8.249958295964944, 8.949759385717847, 0.0 ], "yMean": 19.478816502051856, "yStdDev": 6.1949232381571, "yVariance": 38.37707392665885, "xCorrelations": [ [ 1.0, -0.1859947674356197, 0.0 ], [ -0.1859947674356197, 1.0, 0.0 ], [ 0.0, 0.0, 1.0 ] ], "xYCorrelations": [ 0.3791693893070564, -0.4837793996174176, 0.0 ], "coefficients": [ 0.6460732812209116, -0.8864195347835274, 0.0, 20.541545982438304 ], "isBuilt": true, "isBuildSuccessful": true }
recent_regression_predict函数
使用自适应回归模型进行预测。
double recent_regression_predict(varchar model_json, array(double) x_sample)
参数 | 说明 |
model_json | |
| 用于计算预测值的输入的数据样本。 |
使用示例
查询和分析语句
* | with model1 as ( select group_id, recent_regression( y, array[x1, x2, 1.0], -- 输出输入变量样本 time_offset, -- 样本的时间点 -4, -- 当前批次数据样本的起始时间 0, -- 当前批次数据样本的终止时间 1, -- 单位时间间隔 0.999 -- 指数衰退基数 ) as reg_model from log where time_offset >= -4 and time_offset <= 0 group by group_id ), model2 as ( select group_id, recent_regression(y, array[x1, x2, 1.0], time_offset, -9, -5, 1, 0.999) as reg_model from log where time_offset >= -9 and time_offset <= -5 group by group_id ), model as ( select m1.group_id, merge_recent_regression(m1.reg_model, m2.reg_model) as reg_model from model1 as m1 join model2 as m2 on m1.group_id = m2.group_id ), new_data as ( select 'A' as group_id, 1 as obs_id, 3.0 as x1, 5.0 as x2, 1.0 as x3 union all select 'A' as group_id, 2 as obs_id, 7.0 as x1, 8.0 as x2, 1.0 as x3 ) select m.group_id, n.obs_id, recent_regression_predict(m.reg_model, array[n.x1, n.x2, 1.0]) as predicted_value from model as m join new_data as n on m.group_id = n.group_id order by m.group_id, n.obs_id
返回结果
predicted_value
字段是预测值。group_id
obs_id
predicted_value
A
1
17.489274877305804
A
2
22.3233353394362